Average word length | # of sentences | Source |
---|---|---|
12.86 | 12 | http://ne.wikipedia.org/wiki/पिकदूत |
14.19 | 19 | http://ne.wikipedia.org/wiki/ओलिभिए_जिरू |
14.24 | 13 | http://ne.wikipedia.org/wiki/किशोरदेह_(उपन्यास) |
14.34 | 10 | http://ne.wikipedia.org/wiki/गणेश |
14.45 | 10 | http://ne.wikipedia.org/wiki/इन्दिरा_एकादशी |
14.54 | 12 | http://ne.wikipedia.org/wiki/द्रोणाचार्य |
14.68 | 13 | http://ne.wikipedia.org/wiki/गर्भा_दरबार |
14.73 | 21 | http://ne.wikipedia.org/wiki/चार्वाक_दर्शन |
14.77 | 11 | http://ne.wikipedia.org/wiki/उत्कृष्ट_फिफा_फुटबल_अवार्ड_२०१६ |
14.80 | 11 | http://ne.wikipedia.org/wiki/ૐ |
14.83 | 15 | http://ne.wikipedia.org/wiki/विश्वकर्मा_जाति |
14.86 | 12 | http://ne.wikipedia.org/wiki/निर्मलकुमार_भण्डारी |
14.86 | 33 | http://ne.wikipedia.org/wiki/परशुराम_अवतार |
14.88 | 18 | http://ne.wikipedia.org/wiki/बोगटाकोट |
14.91 | 19 | http://ne.wikipedia.org/wiki/ज्योतिष_गणपति |
15.03 | 25 | http://ne.wikipedia.org/wiki/त्रिपाठी |
15.06 | 12 | http://ne.wikipedia.org/wiki/जेन्डेया |
15.07 | 12 | http://ne.wikipedia.org/wiki/पोखरेल |
15.09 | 10 | http://ne.wikipedia.org/wiki/हरिमन्दिर_साहिब |
15.11 | 15 | http://ne.wikipedia.org/wiki/पाल_(थर) |
15.15 | 20 | http://ne.wikipedia.org/wiki/तीज |
15.16 | 10 | http://ne.wikipedia.org/wiki/स्याङ्जा_जिल्ला |
15.19 | 29 | http://ne.wikipedia.org/wiki/मारूनी_नाच |
15.19 | 12 | http://ne.wikipedia.org/wiki/अन्तिम_नेपाल_तिब्बत_युद्ध |
15.22 | 17 | http://ne.wikipedia.org/wiki/सान्नी_राज्य |
15.23 | 17 | http://ne.wikipedia.org/wiki/सालडाँडा,_स्याङ्जा |
15.23 | 13 | http://ne.wikipedia.org/wiki/बाइबल |
15.24 | 12 | http://ne.wikipedia.org/wiki/डिप्रेसन |
15.25 | 18 | http://ne.wikipedia.org/wiki/एडम_स्मिथ |
15.29 | 11 | http://ne.wikipedia.org/wiki/पानी_जहाज |
Average word length | # of sentences | Source |
---|---|---|
21.42 | 14 | http://ne.wikipedia.org/wiki/निबन्ध |
20.63 | 16 | http://ne.wikipedia.org/wiki/प्रकाश_संश्लेषण |
20.29 | 15 | http://ne.wikipedia.org/wiki/विश्वविद्यालय |
19.88 | 14 | http://ne.wikipedia.org/wiki/नेपालको_इतिहास |
19.83 | 15 | http://ne.wikipedia.org/wiki/तीव्रग्राहिता |
19.60 | 14 | http://ne.wikipedia.org/wiki/कोलेस्टेरोल |
19.56 | 11 | http://ne.wikipedia.org/wiki/नवजात_शिशु_तथा_बाल_स्वास्थ्य_स्याहार |
19.52 | 13 | http://ne.wikipedia.org/wiki/भाषाविज्ञान |
19.49 | 10 | http://ne.wikipedia.org/wiki/नैतिकता |
19.35 | 10 | http://ne.wikipedia.org/wiki/वास्तुशास्त्र |
19.34 | 14 | http://ne.wikipedia.org/wiki/भिमिओ |
19.32 | 11 | http://ne.wikipedia.org/wiki/रसुवा_जिल्ला |
19.31 | 10 | http://ne.wikipedia.org/wiki/पेले |
19.29 | 13 | http://ne.wikipedia.org/wiki/संस्कृति |
19.29 | 17 | http://ne.wikipedia.org/wiki/२०१४_पिशावर_विद्यालय_हत्याकाण्ड |
19.27 | 12 | http://ne.wikipedia.org/wiki/नेपालको_प्रधानमन्त्री |
19.26 | 13 | http://ne.wikipedia.org/wiki/नेपोलियन_बोनापार्ट |
19.25 | 17 | http://ne.wikipedia.org/wiki/कार्ल_मार्क्स |
19.22 | 15 | http://ne.wikipedia.org/wiki/कृष्णप्रसाद_भट्टराई |
19.19 | 14 | http://ne.wikipedia.org/wiki/माघ_१९,_२०६१_को_शाही_घोषणा |
19.15 | 15 | http://ne.wikipedia.org/wiki/नेपाली_साहित्यिक_आन्दोलन |
19.15 | 20 | http://ne.wikipedia.org/wiki/विद्यापति |
19.14 | 29 | http://ne.wikipedia.org/wiki/पूर्व_पाकिस्तान |
19.11 | 24 | http://ne.wikipedia.org/wiki/मित्रताका_लागि_फुटबल |
19.07 | 10 | http://ne.wikipedia.org/wiki/अर्थशास्त्र |
19.03 | 52 | http://ne.wikipedia.org/wiki/बङ्गलादेशको_स्वतन्त्रता_युद्ध |
18.98 | 19 | http://ne.wikipedia.org/wiki/भक्ति_गीत |
18.97 | 10 | http://ne.wikipedia.org/wiki/इन्द्रबहादुर_राई |
18.96 | 13 | http://ne.wikipedia.org/wiki/हाँडे |
18.95 | 11 | http://ne.wikipedia.org/wiki/बाहुबली_२:_द_कन्क्लुजन |
The problem addressed in this subsection (as well as the results) is similar to 6.4.1.1, but now we focus on average word length instead of average sentence length.
Measuring average word length strongly depends on tokenization. The usual tokenization might split the string “28.06.2005” into five parts “28 . 06 . 2005” of average length two. To avoid this, the number of words is counted as 1 + (number of blanks in the sentence).
select round(avg(length(sentence) / (1+ length(sentence) - length(replace(sentence," ","")))),2) as le, count(sentence) as cnt, source from sentences s, inv_so i, sources so where s.s_id=i.s_id and i.so_id=so.so_id group by source having cnt>=10 order by le limit 30;
6.4.2.2 Average logarithmic word rank for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words